Uso de SGBDs NoSQL na Gerência da Proveniência Distribuída em Workflows Científicos
نویسندگان
چکیده
Resumo. Um fator fundamental na gerência de experimentos modelados como workflows científicos são seus dados de proveniência. Esses dados basicamente são usados para garantir a reprodutibilidade, porém nos últimos anos eles também vêm sendo usados para tarefas de monitoramento e escalonamento de atividades. Como essas tarefas demandam consultas em tempo real, conforme a quantidade de dados de proveniência aumenta, mecanismos eficazes para armazenamento e consulta se fazem necessários. Uma das opções mais comuns é utilizar os SGBDs relacionais para gerenciar a proveniência, dada a tradição da tecnologia. Porém, novas tecnologias como os SGBDs NoSQL tem ganhado bastante atenção nos últimos anos e podem ser de grande valia nesse cenário, principalmente em ambientes distribuídos onde escalabilidade é essencial. Este artigo realiza um estudo comparativo entre SGBDs relacionais e um SGBD NoSQL (Cassandra) no que tange a gerência dos dados de proveniência. Apresentamos um estudo com um workflow real de bioinformática usando a máquina de workflows para nuvens SciCumulus.
منابع مشابه
Distribuição de Bases de Dados de Proveniência na Nuvem
Resumo. Dados de proveniência no contexto de workflows científicos são peças fundamentais, pois, por meio deles, os experimentos são passíveis de reprodução e validação. O histórico da execução dos workflows é fundamental também para a gerência da execução de novos workflows uma vez que possibilitam às máquinas de workflow realizar predições sobre desempenho ou custo financeiro de nuvens de com...
متن کاملCaptura de Metadados de Proveniência para Workflows Científicos em Nuvens Computacionais
Workflows are scientific abstractions used in the modeling of scientific experiments. High performance capabilities such as clusters and grids are often required to run the experiments. Cloud computing is starting to be adopted by the scientific community. However, the cloud environment is still incipient in collecting and recording workflow provenance. This paper presents an approach to suppor...
متن کاملSGProv: Mecanismo de Sumarização para Múltiplos Grafos de Proveniência
Resumo. Os Sistemas de Gerência de Workflows Científicos (SGWfC) têm o objetivo de automatizar a construção e execução de experimentos científicos. Várias execuções de workflows são necessárias para realizar um experimento. O rastro de proveniência, coletado pelos SGWfC durante estas execuções, é importante para que os cientistas possam compreender, reproduzir e analisar seus experimentos. Um r...
متن کاملSciCumulus-ECM: Um Serviço de Custos para a Execução de Workflows Científicos em Nuvens Computacionais
Resumo O conceito de computação em nuvem vem se firmando como um novo modelo computacional que proporciona aos cientistas uma oportunidade de se utilizar diversos recursos distribuídos para a execução de experimentos científicos. Muitos dos experimentos científicos existentes, modelados como workflows científicos, devem controlar a execução de atividades que consomem e produzem grandes volumes ...
متن کاملGerência de Proveniência Multigranular em Linked Data com a Abordagem ETL4LinkedProv
This paper presents the ETL4LinkedProv approach to manage the collection and publication of provenance metadata with different levels of granularity, as Linked Data. The approach uses ETL workflows and a novel component named Provenance Collector Agent. Its application in a real scenario is presented and the impact of the fine-grained provenance in the ETL workflow runtime and in the number of ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2014